"دراسة مقارنة لبعض الطرق المتينة للكشف عن المشاهدات الشاذة فى نماذج الإنحدار الخطى"
أحمد صدقى محمد الديب الأسكندرية التجارة الإحصاء التطبيقى ماجستير 2009 173
"تعتبر طريقة المربعات الصغرى(Ordinary Least Squares)أكثر الطرق انتشاراً لتوفيق نموذج الإنحدار وتعتمد هذه الطريقة على الإفتراض الضمنى بأن جميع المشاهدات لها نفس التأثير على نموذج الإنحدار الموفق ،وهو مالا يحدث فى الواقع العملى ،حيث توجد دائما مشاهدات تختلف عن باقى البيانات وتؤثر بصورة أكبر على مقدرات المربعات الصغرى .
وتمثل المشاهدات الشاذة ( سواء في X أو في Y )مشكلة للطرق التقليدية التي تعتمد علي تحليل المربعات الصغرى (Least Squares) ، وهناك طريقتين أساسيتين للتعامل مع تلك المشكلة :
• الطريقة الأولي: والأكثر إنتشارا في الدراسات الإحصائية هي المسماة بطرق تشخيص المشاهدات الشاذة (Outlier Diagnostics) وهي عبارة عن مقاييس محسوبة من البيانات بغرض تحديد المشاهدات الشاذة .
• الطريقة الثانية: والتي برزت في الآونة الأخيرة تعتمد علي طرق الإنحدار المتين (Robust Regression) التي تحاول إيجاد مقدرات لا تتأثر بالمشاهدات الشاذة بصورة كبيرة .
ويعتقد كثير من الإحصائيين أن الغرض من الإنحدار المتين هو تجاهل المشاهدات الشاذة ولكن هذا غير صحيح بل علي العكس بالنظر إلي بواقي الإنحدار المتين يمكن تحديد المشاهدات الشاذة التي يصعب تحديدها عادة بإستخدام بواقي المربعات الصغرى . ولهذا فإن الإنحدار المتين والطرق التقليدية لتشخيص المشاهدات الشاذة كلاهما له نفس الهدف ولكن فقط بترتيب مختلف حيث يتم حذف المشاهدات الشاذة أولاً ثم توفيق الإنحدار بإستخدام المربعات الصغرى للبيانات الجيدة في الطرق التقليدية ، بينما يهتم الإنحدار المتين بتوفيق الإنحدار لغالبية البيانات ثم يكتشف المشاهدات الشاذة التي يكون لها بواقي كبيرة ناتجة عن ذلك الإنحدار المتين (Rousseeuw and Leroy,1987,p.8) .
وحيث أن طريقة المربعات الصغرى حساسة لوجود المشاهدات الشاذة ،فلا يمكن استخدام بواقى هذه الطريقة لتحديد تلك المشاهدات ،ويرجع ذلك الى أن البواقى الخاصة بهذه المشاهدات قد تكون صغيرة مقارنة بالمشاهدات الجيدة الاخرى ،بينما تتميز أساليب الإنحدار المتين بعدم حساسيتها للمشاهدات الشاذة وبالتالى إمكانية إستخدامها فى إكتشاف المشاهدات الشاذة (Ahmed ,2004) .
وتحاول الدراسة رسم صورة واضحة وكاملة للبيانات من خلال المقارنة بين تصنيفين كبيرين لإكتشاف المشاهدات الشاذة الأول منهما يعتمد علي الطرق المباشرة ، والثاني يحتوى علي الطرق غير المباشرة والتى تعتمد على بواقي الإنحدار المتين (Robust Residuals) (Hadi and Simonoff,1993) وذلك من خلال دراسة مجموعات مختلفة من البيانات المشهورة (Famous Data) التي إعتادت الدراسات الإحصائية الإهتمام بها عند دراسة المشاهدات الشاذة والأساليب المستخدمة فى إكتشافها .
والخطوة التالية لإكتشاف المشاهدات الشاذة المؤثرة هي إعطاء أوزان أو ترجيح لتلك المشاهدات بإستخدام طرق مختلفة للإنحدار وتتراوح عملية الترجيح من إعطاء وزن صفري للمشاهدات المؤثــــــرة (حذفها) إلي إعطائها أوزان مختلفة وذلك اعتماداً علي مقاييس المسافة ومن المتوقع أن تزيد عملية الترجيح من إستقرار نتائج نموذج الإنحدار . (Ahmed and Hussien, 2003)
1-2 مشكلة الدراسة :
عادة ما يؤثر وجود المشاهدات الشاذة علي كفاءة مقدرات نماذج الإنحدار الخطي إذا ما إستخدمنا في تقديرها الطرق التقليدية التي تعتمد علي المربعات الصغرى ، كذلك يترتب علي وجود المشاهدات الشاذة أخطاء في عمليتي التنبؤ والتقدير حيث أنها قد تضخم من تباين الأخطاء مما يؤدي إلي إتساع فترات الثقة ويقلل من كفاءة التقدير ،ولا تنجح أغلب الطرق التقليدية في الكشف عن المشاهدات بسبب مشكلتي الحجب والإغراق (Masking and Swamping) .
ويمكن صياغة مشكلة الدراسة فى عدد من التساؤلات كما يلى
1- ماهو ترتيب أساليب إكتشاف المشاهدات البعيدة عن مركز البيانات من حيث قدرتها على
إكتشاف تلك المشاهدات ومدى تعرضها لأثرى الحجب والإغراق ؟
2- ماهى أفضل الأشكال البيانية لمصفوفة (المسافة – المسافة) من حيث إيضاحها لشكل وطبيعة البيانات ؟
3- ماهو ترتيب طرق إكتشاف المشاهدات الشاذة وفقاً لمعيار معدل الأخطاء فى تحديد المشاهدات الشاذة (Outliers Error Rate,OER) ، ووفقاً لمعيار معدل الاخطاء فى تحديد المشاهدات الجيدة (Inliers Error Rate,IER ( وكذلك وفقاً لمجموع المعيارين معاً
( OER+IER) ؟
4- ماهى أفضل الطرق ذات المرحلتين (المسافة – البواقى ) والتى يمكن إستخدامها فى التشخيص الكامل للبيانات محل الدراسة ؟
5- هل تستطيع الأوزان النهائية المستخرجة من إحدى طرق إكتشاف المشاهدات الشاذة فى الحد من أو تلاشى تأثير المشاهدات المؤثرة الموجودة فى البيانات ؟،وهل تكفى المقاييس التقليدية بعد ترجيحها لإكتشاف المشاهدات المؤثرة ؟
1-3 هدف الدراسة :
يتكون هدف الدراسة من الإجابات للتساؤلات العديدة التى تم طرحها فى مشكلة الدراسة ، حيث تهدف الدراسة إلى مايلى :
1- التوصل إلى أفضل أساليب إكتشاف المشاهدات البعيدة عن مركز البيانات ، وترتيب تلك الأساليب وفقاً لتعرضها لأثرى الحجب والإغراق .
2- إيجاد ترتيب لطرق إكتشاف المشاهدات الشاذة وفقاً لمعيارى (OER and IER) حيث يعني إنخفاض قيمة المعيار الأول قدره أكبر للطريقة علي إكتشاف المشاهدات الشاذة وعدم تعرضها لمشكلة خطيرة تظهر دائماً عند القيام بعملية تحديد وإكتشاف المشاهدات الشاذة وهى مشكلة الحجب ، بينما يعنى إنخفاض قيمة المعيار الثاني قدره الطريقة علي تحديد المشاهدات الشاذة بدقة وعدم إظهار مشاهدات عادية علي أنها شاذة مما يعنى عدم تعرضها لمشكلة أخرى تعاني منها كثير من الطرق التقليدية وهي مشكلة الإغراق .
3- التوصل إلى أفضل الأشكال البيانية لمصفوفة ( المسافة- المسافة) ،والذى يساعد فى التعرف بصورة أوضح على شكل وطبيعة البيانات محل الدراسة .
4- التعرف على أفضل الطرق ذات المرحلتين(المسافة - البواقى) من حيث قدرتها على عمل تشخيص كامل للمشاهدات فى مجموعات البيانات المختلفة من خلال تقسيم البيانات إلى أربعة مجموعات :
أ- مشاهدات شاذة فى Yوكذلك بعيدة عن مركز البيانات ( Bad Leverage ).
ب- مشاهدات بعيدة عن مركز البيانات فقط غير شاذة فى Y(Good Leverage).
ج - مشاهدات شاذة فى Y فقط وليست بعيدة عن مركز البيانات (Vertical Outliers ).
د- المشاهدات الجيدة غير الشاذة فى X أو Y (Good Observations ) .
وترجع أهمية هذا التصنيف إلي أن تأثير تلك المشاهدات الشاذة علي معاملات الإنحدار قد يختلف باختلاف موقعها فمشاهدة شاذة في إتجاه Y قد يؤثر بصورة طفيفة علي معاملات الإنحدار ، بينما مشاهدة شاذة في إتجاه X تؤثر بصورة أكبر.(Anderson and Schumacker, 2003)
5- إيضاح الدور الذى تلعبه الأوزان النهائية المستخرجة من إحدى طرق إكتشاف المشاهدات الشاذة فى الحد من أو تلاشى تأثير المشاهدات المؤثرة الموجودة فى البيانات ، وكذلك التعرف على مدى تعرض مقاييس إكتشاف المشاهدات المؤثرة للحجب والإغراق قبل وبعد الترجيح .
1-4 أهمية الدراسة: تكمن أهمية الدراسة فيما يلى :
1- إستخدامها لمعياين جديدين للمقارنة بين طرق إكتشاف المشاهدات الشاذة وتطبيقهما على العديد من مجموعات البيانات التى تعد أكثر إستخداماً فى دراسات إكتشاف المشاهدات الشاذة
2- عقد مقارنة بين 10 طرق من الطرق المتينة لإكتشاف المشاهدات الشاذة تتنوع بين طرق مباشرة وطرق غير مباشرة لإختيار أفضلها من حيث تعرضها للأخطاء فى تحديد تلك المشاهدات .
3- تقديم بعض الأشكال البيانية الجديدة لمصفوفة (المسافة- المسافة) يعطى صورة أوضح لشكل وطبيعة البيانات .
4- تقديم فكرة جديدة لإعادة ترجيح مصفوفة البيانات بإستخدام أوزان أفضل طرق إكتشاف المشاهدات البعيدة عن المركز وكذلك المشاهدات الشاذة للتعرف على أثر عملية الترجيح على تقليص دور المشاهدات المؤثرة .
5- تقديم مجموعة من الاشكال البيانية لتصنيف طرق إكتشاف المشاهدات الشاذة وفقاً لقدرتها على إكتشاف المشاهدات الشاذة (Detection Capability, DC ) وتعرضها لمعدلات الإنذار الخاطئ ( False Alarm Rate, FAR).
1-5 خطة الدراسة : ولتحقيق هذا الهدف قام الباحث بتقسيم الدراسة إلى ستة فصول يحتوى الفصل الأول منها على مشكلة وهدف وأهمية الدراسة ، بينما يحتوى الفصل الثانى على بعض مقاييس المسافة التقليدية ثم نناقش حدود إستخدام هذه المقاييس والأسباب التى أدت إلى التفكير فى تطوير مقدرات متينة للموقع والمقياس (Location and Scale) وكيفية إستخدامها للحصول على المسافات المتينة ، ثم نعرض لبعض المقاييس الحديثة للمسافة ممثلة فى المسافة المتينة
المعتمدة على المقدرات المتينة للموقع والمقياس لطريقة أدنى محدد للتغاير(MCD) ومسافة باكون(BACON) والمسافات المتينة لعام 2006 (RD06) التى إقترحها (Billor et al.,2006) كبديل للمقاييس التقليدية للمسافة ، مع التطبيق العملى ومقارنة أداء هذه المقاييس فى
الفصل الرابع من الدراسة، كما قدم الباحث مجموعة من الاشكال البيانية لمصفوفة(المسافة – المسافة) لمقاييس إكتشاف المشاهدات البعيدة عن مركز البيانات كأداة توضيحية لشكل البيانات محل الدراسة من خلال الملحق رقم (1) ، وينقسم الفصل الثالث إلى قسمين رئيسيين نهتم فى القسم الأول منه لطرق إكتشاف المشاهدات الشاذة ثم نعرض فى القسم الثانى من الفصل لمقاييس إكتشاف المشاهدات المؤثرة ، ويحتوى الفصل الخامس على التطبيق العملى للمفاهيم والطرق المختلفة التى تناولتها الدراسة فى الفصل الثالث ، وينقسم الفصل إلى ثلاثة أجزاء رئيسية يتم فى الجزء الأول فيه الأهتمام بإكتشاف المشاهدات الشاذة ،ويهتم الجزء الثانى منه بطرق التحليل ذو المرحلتين (المسافة - البواقى) بينما يهتم الجزء الثالث بإكتشاف المشاهدات المؤثرة ، مع وضع الأشكال البيانية الخاصة بالطريقتين 1 ، 2 فى الملحق رقم (2) بينما تم وضع الأشكال البيانية الخاصة بالطريقتين 3 ، 4 فى الملحق رقم (3) من ملاحق الدراسة ، وطرق الإنحدار المتينة التى تمت المقارنة بينها من خلال بعض المعايير النظرية وعملياً فى الفصل الخامس تتمثل فى
●الطرق غير المباشرة (Indirect Methods) : ، وتشمل
1- طريقة وسيط المربعات الأدنى . (Least Median of Squares, LMS)
2- طريقة المربعات المشذبة الصغري .(Least Trimmed of Squares, LTS)
3- طريقة أدني محدد للتغاير .(Minimum Covariance Determinant ,MCD)
4- طريقة الحجم الأدنى للقطع الناقص . (Minimum Volume Ellipsoid ,MVE)
5- طريقة مقدرات M .( M-estimators) .
6- طريقة تقدير MM (MM – Estimation) .
●الطرق المباشرة (Direct Methods): وتشمل الطرق المباشرة التى سيتم إستخدامها
1- طريقة (Chatterjee and Machler ,CM97)
2- طريقة المربعات الصغرى المعاد ترجحيها تكرارياً لعام 2001 (Iteratively Re-Weighted Least Squares IRWLS01) المعتمدة على مسافة ماهالانوبيس .
3- طريقة المربعات الصغرى المعاد ترجحيها لعام 2001 (IRWLS01) المعتمدة على المسافة الإقليدية من الوسيط المتوافق .
4- طريقة المربعات الصغرى المعاد ترجحيها لعام 2006 (IRWLS06) .
وإعتمدت الدراسة التطبيقية فى الفصلين الرابع والخامس على إستخدام عشرة مجموعات من البيانات المشهورة التي إستُخدمت في دراسات إكتشاف المشاهدات الشاذة ،وبذلك تكون المقارنة بين الأساليب والبدائل المتينة عملياً علي أساس مدى نجاح هذه الأساليب في الكشف عن أكبر قدر من المشاهدات الشاذة التي نعرفها سلفاً وعدم وقوعها كذلك فى خطأ تحديد بعض المشاهدات العادية على أنها شاذة وذلك بإستخدام معيارين للمقارنة هما :
1- معدل الأخطاء فى تحديد المشاهدات الشاذة ( Outliers Error Rate , OER )
ونعني به نسبة الأخطاء التي يمكن أن تقع فيها الطريقة المستخدمة في تحديد المشاهدات الشاذة ، وتعد هذه النسبة هي المكمل لمعيار أخر قام الباحث أيضاً بإستخدم في المقارنة بين الطرق المختلفة وهو معيار القدرة علي إكتشاف المشاهدات الشاذة (DC).
2- معدل الأخطاء فى تحديد المشاهدات العادية ( Inliers Error Rate,IER )
ونعنى به نسبة الأخطاء التي يمكن أن تقع فيها الطريقة المستخدمة لإكتشاف المشاهدات الشاذة بتصنيف مشاهدات عادية جيدة علي أنها مشاهدات شاذة ، ويعتبر هذا المعيار هو المكافئ لمعيار معدل الإنذار الخاطئ (FAR) .
ثم تم فى نهاية كل مجموعة من مجموعات البيانات المستخدمة فى الفصل الرابع المقارنة بين بعض الطرق ذات المرحلتين التى تعتمد على البواقى والمسافة فى عمل تشخيص كامل للمشاهدات ،بينما يحتوى القسم الثانى من الفصل الثالث على مقاييس إكتشاف المشاهدات المؤثرة ثم قام الباحث فى الجزء الثانى من الفصل الخامس بالترجيح لمقاييس المسافة التقليدية باستخدام الأوزان (Weights) التي تم الحصول عليها من أفضل الطرق وأكثرها فاعلية في إكتشاف وتحديد المشاهدات الشاذة الحقيقية وكذلك أفضلها في تحديد المشاهدات البعيدة عن مركز البيانات وذلك في محاولة للتوصل إلي مقاييس مرجحة (Weighted Measures) لإكتشاف المشاهدات المؤثرة بهدف قياس أثر إستخدام الطرق المتينة علي تقليل عدد المشاهدات المؤثرة وكذلك قياس كفاءة تلك الطرق في تقليص دور المشاهدات المؤثرة في تحديد القيم الموفقة .
وإحتوى الفصل السادس على الخلاصة والنتائج والتوصيات العامة للدراسة التطبيقية للفصلين الرابع والخامس بالإضافة الى عدد من الاشكال البيانية لتصنيف طرق إكتشاف المشاهدات الشاذة وفقاً لمقدرتها
على إكتشاف تلك المشاهدات(DC) وتعرضها لمعدلات الإنذار الخاطئ (FAR)وكذلك وفقاً لمعيارى معدلات الأخطاء فى تحديد المشاهدات الشاذة والمشاهدات الجيدة (OER and IER) وكذلك جدول لملخص النتائج النهائية لهذه الطرق وفقاً للمعايير المختلفة المستخدمة فى الدراسة ."
انشء في: ثلاثاء 8 يناير 2013 07:55
مشاركة عبر
أخر الإضافات
أخر الملخصات المضافة